Identification of related multilingual documents using ant clustering algorithms Identificación de documentos multilingües relacionados mediante algoritmos de clustering de hormigas

نویسندگان

  • Ángel Cobo
  • Rocío Rocha
چکیده

This paper presents a document representation strategy and a bio-inspired algorithm to cluster multilingual collections of documents in the field of economics and business. The proposed approach allows the user to identify groups of related economics documents written in Spanish and English using techniques inspired on clustering and sorting behaviours observed in some types of ants. In order to obtain a language independent vector representation of each document two multilingual resources are used: an economic glossary and a thesaurus. Each document is represented using four feature vectors: words, proper names, economic terms in the glossary and thesaurus descriptors. The proper name identification, word extraction and lemmatization are performed using specific tools. The tf-idf scheme is used to measure the importance of each feature in the document, and a convex linear combination of angular separations between feature vectors is used as similarity measure of documents. The paper shows experimental results of the application of the proposed algorithm in a Spanish-English corpus of research papers in economics and management areas. The results demonstrate the usefulness and effectiveness of the ant clustering algorithm and the proposed representation scheme.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Non-Parametric Document Clustering by Ensemble Methods Clustering No Paramétrico de Documentos mediante Métodos de Consenso

The biases of individual algorithms for non-parametric document clustering can lead to non-optimal solutions. Ensemble clustering methods may overcome this limitation, but have not been applied to document collections. This paper presents a comparison of strategies for non-parametric document ensemble clustering.

متن کامل

Optimización mediante algoritmo de hormigas aplicado a la recolección de residuos sólidos en UNAM-CU

Resumen. En este artículo se aplica la metaheurística de colonia de hormigas (ACO) para resolver el problema de ruteo que se presenta al realizar la tarea de recolección de residuos sólidos en UNAM-CU. Este espacio está dividido en varios circuitos de los cuales el circuito CCU será nuestro primer caso de estudio. El encontrar la mejor ruta para este circuito, puede verse como un problema de op...

متن کامل

Clasificación semántica de textos no estructurados mediante un enfoque evolutivo

Resumen. En la actualidad, cerca del 90% de la información se encuentra plasmada tanto en documentos estructurados como no estructurados. Esto ha dado impulso a la investigación e implementación de diferentes algoritmos para el análisis y clasificación de textos de acuerdo a su orientación semántica. Por ello, en el presente trabajo se describe una manera de clasificación de textos no estructur...

متن کامل

Análisis del desempeño del algoritmo genético en la clasificación automática de documentos

Resumen. Existen diversos algoritmos de clasificación para el proceso de clasificación automática de documentos, estos algoritmos buscan soluciones eficientes y rápidas, es por lo cual, el Algoritmo Genético es ideal para aplicar a este contexto, ya que es capaz de encontrar soluciones eficientes en unos cuantos segundos, por su capacidad de examinar el espacio de búsqueda en forma amplia y efi...

متن کامل

Clustering of Short Read Sequences for de novo Transcriptome Assembly

Given the importance of transcriptome analysis in various biological studies and considering thevast amount of whole transcriptome sequencing data, it seems necessary to develop analgorithm to assemble transcriptome data. In this study we propose an algorithm fortranscriptome assembly in the absence of a reference genome. First, the contiguous sequencesare generated using de Bruijn graph with d...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012